符号音乐的生成依赖于生成模型的上下文表示功能,其中最普遍的方法是基于变压器的模型。音乐背景的学习也与音乐中的结构元素,即介绍,诗歌和合唱有关,这些元素目前被研究界忽略了。在本文中,我们提出了一个分层变压器模型,以学习音乐中的多尺度上下文。在编码阶段,我们首先设计了一个片段范围定位层,以将音乐结合到和弦和部分中。然后,我们使用多尺度的注意机制来学习笔记,和弦和部分级别的上下文。在解码阶段,我们提出了一个层次变压器模型,该模型使用精细编码器并行生成部分和粗编码器来解码组合音乐。我们还设计了音乐风格的标准化层,以在生成的部分之间实现一致的音乐风格。我们的模型在两个开放的MIDI数据集上进行了评估,实验表明我们的模型优于当代音乐生成模型。更令人兴奋的是,视觉评估表明,我们的模型在旋律重复使用方面表现出色,从而产生了更现实的音乐。
translated by 谷歌翻译
作为世界各地的Covid-19大流行横冲直撞,对视频会议激增的需求。为此,实时肖像分割成为一种流行的功能,以取代会议参与者的背景。虽然为从生命场景中提取身体姿势的分段提供了具有丰富的数据集,模型和算法,但纵向分割尚未在视频会议上下文中覆盖很好。为了促进该领域的进步,我们介绍了名为PP-Humanseg的开源解决方案。这项工作是第一个构建一个大型视频纵向数据集,其中包含291个会议场景中的291个视频,其中14K细微的帧和扩展到多摄像头电话。此外,我们提出了一种用于语义分割的新型语义连接感知学习(SCL),其引入了语义连接感知丢失,以提高来自连接的角度的分段结果。我们提出了一种超轻量级模型,具有SCL的实际肖像分割,实现IOO之间的最佳权衡和推理的速度。我们数据集的广泛评估展示了SCL和我们的模型的优越性。源代码可在https://github.com/paddlepaddle/paddleseg上获得。
translated by 谷歌翻译
电力电子转换器已被广泛用于航空航天系统,直流传输,分布式能源,智能电网等,电源电子转换器的可靠性一直是学术界和行业的热点。执行电力电子转换器开放电路故障和智能故障诊断以避免次要故障,减少操作和维护成本,并提高电力电子系统的可靠性,这一点很重要。首先,分析和总结电力电子转换器的故障特征。其次,对电源电子转换器中的一些基于AI的故障诊断方法和应用示例进行了审查,并提出了基于随机森林和瞬态故障特征的故障诊断方法,用于三相功率电子转换器。最后,指出了未来的研究挑战和基于AI的故障诊断方法的方向。
translated by 谷歌翻译
卷积神经网络(CNN)由于其强大的特征提取和分类功能而广泛用于机械系统的故障诊断。但是,CNN是一个典型的黑盒模型,CNN决策的机制尚不清楚,这限制了其在高可授权要求的故障诊断方案中的应用。为了解决这个问题,我们提出了一个新颖的可解释的神经网络,称为时频网(TFN),其中物理上有意义的时频变换(TFT)方法被嵌入传统的卷积层中,作为自适应预处理层。这个称为时频卷积(TFCONV)层的预处理层受到精心设计的内核函数的约束,以提取与故障相关的时间频率信息。它不仅改善了诊断性能,而且还揭示了频域中CNN预测的逻辑基础。不同的TFT方法对应于TFCONV层的不同内核函数。在这项研究中,考虑了四种典型的TFT方法来制定TFN,并且通过三个机械故障诊断实验证明了它们的有效性和解释性。实验结果还表明,所提出的TFCONV层可以很容易地推广到具有不同深度的其他CNN。 TFN的代码可在https://github.com/chenqian0618/tfn上获得。
translated by 谷歌翻译
任务规划的挑战之一是找出导致计划失败的原因以及如何智能地处理失败。本文展示了如何实现这一目标。该想法是由连接的图形的启发:每个verticle表示一组兼容的\ extent {状态},每个边缘表示\ textit {action}。对于任何给定的初始状态和目标,我们构建虚拟操作以确保我们始终通过任务规划获得计划。本文展示了如何引入虚拟操作以扩展操作模型以使要连接的图形:i)显式定义静态谓词(类型,永久属性等)或动态谓词(状态);ii)为每个状态构建一个完整的虚拟动作或半虚拟动作;iii)通过逐步规划方法找到规划失败的原因。实施是在三种典型方案中进行评估。
translated by 谷歌翻译
无需后续文本分割的准确布局分析仍然是一个持续的挑战,特别是在面对kangyur时,一种历史藏文档,具有相当大的触摸部件和斑驳的背景。旨在识别文档图像中的不同区域,对于诸如字符识别的后续程序,布局分析是必不可少的。然而,只有一点研究正在进行执行线路级布局分析,该分析未能处理Kangyur。为了获得最佳结果,提出了一种细粒度的子线级布局分析方法。首先,我们推出了一种加速方法来构建动态且可靠的数据集。其次,根据kangyur的特征对索洛夫2进行了增强。然后,我们在训练阶段将增强索入索维2馈出了准备的注释文件。一旦培训网络,可以在推断阶段分段和识别文本行,句子和标题的文本行和标题的实例。实验结果表明,该方法在我们的数据集中提供了一个体面的72.7%的平均精度。通常,这项初步研究提供了对细粒度的子线级布局分析的见解,并证明了基于索洛夫2的方法。我们还认为,所提出的方法可以在具有各种布局的其他语言文件上采用。
translated by 谷歌翻译
Image view synthesis has seen great success in reconstructing photorealistic visuals, thanks to deep learning and various novel representations. The next key step in immersive virtual experiences is view synthesis of dynamic scenes. However, several challenges exist due to the lack of high-quality training datasets, and the additional time dimension for videos of dynamic scenes. To address this issue, we introduce a multi-view video dataset, captured with a custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes showing various visual effects and human interactions in outdoor scenes. We develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable view extrapolation from binocular videos of dynamic scenes, captured by static cameras. Our algorithm addresses the temporal inconsistency of disocclusions by identifying the error-prone areas with a 3D mask volume, and replaces them with static background observed throughout the video. Our method enables manipulation in 3D space as opposed to simple 2D masks, We demonstrate better temporal stability than frame-by-frame static view synthesis methods, or those that use 2D masks. The resulting view synthesis videos show minimal flickering artifacts and allow for larger translational movements.
translated by 谷歌翻译
我们考虑将订单和机架分配给多个站点的问题,并在机器人辅助Kiva仓库中的每个站测序它们的互连处理流程。涉及问题的各种决定,它与实时紧密相关,必须实时解决,以便易于治疗。但是,利用订单分配与采摘站调度之间的协同作用效益采摘效率。我们开发了一个完整的数学模型,考虑到协同作用,以尽量减少机架访问总数。为了解决这个难以解决的问题,我们开发了一种基于模拟退火和动态规划的高效算法。计算研究表明,在解决方案质量方面,所提出的方法优于实践中使用的规则的策略。此外,结果表明,忽略订单分配政策会导致真实世界大小的实例相当最优的差距。
translated by 谷歌翻译
图形神经网络(GNN)已被证明是分析非欧国人图数据的强大工具。但是,缺乏有效的分布图学习(GL)系统极大地阻碍了GNN的应用,尤其是当图形大且GNN相对深时。本文中,我们提出了GraphTheta,这是一种以顶点为中心的图形编程模型实现的新颖分布式和可扩展的GL系统。 GraphTheta是第一个基于分布式图处理的GL系统,其神经网络运算符以用户定义的功能实现。该系统支持多种培训策略,并在分布式(虚拟)机器上启用高度可扩展的大图学习。为了促进图形卷积实现,GraphTheta提出了一个名为NN-Tgar的新的GL抽象,以弥合图形处理和图形深度学习之间的差距。提出了分布式图引擎,以通过混合平行执行进行随机梯度下降优化。此外,除了全球批次和迷你批次外,我们还为新的集群批次培训策略提供了支持。我们使用许多网络大小的数据集评估GraphTheta,范围从小,适度到大规模。实验结果表明,GraphTheta可以很好地扩展到1,024名工人,用于培训内部开发的GNN,该工业尺度的Aripay数据集为14亿个节点和41亿个属性边缘,并带有CPU虚拟机(Dockers)群的小群。 (5 $ \ sim $ 12GB)。此外,GraphTheta比最先进的GNN实现获得了可比或更好的预测结果,证明其学习GNN和现有框架的能力,并且可以超过多达$ 2.02 \ tims $ $ 2.02 \ times $,具有更好的可扩展性。据我们所知,这项工作介绍了文献中最大的边缘属性GNN学习任务。
translated by 谷歌翻译
A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
translated by 谷歌翻译